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摘要 : 


【 目的 】 分 析 领 域内 中 文科 技 文献 新 发 现 语言 描述 特征 。[ 方法 ] 语义 标注 新 发 现 语言 描述 特征 ,通过 名 


式 分 析 、 频次 分 布 统计 以 及 共 现 分 析 探 究 其 特征 规律 。【 结果 】 总结 得 到 领域 内 中 文科 技 文献 新 发 现 语言 的 句 型 ， 


找 出 新 发 现 语言 的 特征 搭配 。[ 局 限 】 结果 具有 领域 学 科 局 限 性 , 需要 进一步 对 比 研究 。[【 结论 】 利 用 语义 标注 、 
频次 统计 以 及 共 现 分 析 可 以 有 效 地 发 现 中 文科 技 文献 中 新 发 现 语言 的 描述 特征 。 


关键 词 : 新 发 现 
分 类 号 : TP393 


1 五 寺 征 


本 百 讨 语义 标注 


1 3 引 


科技 文献 旨 在 为 同一 问题 的 其 他 研究 者 提供 新 知 
识 趾 , 称 得 上 科学 研究 成 果 的 论文 , 一 定 要 有 新 发 现 、 
新 假设 或 新 理论 门 。 科 学 发 现 、 理 论 创 新 等 是 科技 创 
新 的 重要 体现 中, 因此 作者 写作 时 会 采用 特定 描述 方 
式 声 明 其 首创 性 。 从 自然 语言 理解 的 角度 , 分 析 新 发 
现 语 言 的 描述 特征 ， 以 实现 对 文献 新 发 现 语言 模式 的 
揭示 ,对 基于 规则 的 文献 信息 抽取 的 召回 率 提高 具有 
重要 的 实际 意义 。 

为 了 从 语言 描述 上 把 握 中 文科 技 文献 新 发 现 的 特 
征 , 本 文 以 领域 内 中 文科 技 文献 新 发 现 语言 为 研究 对 
象 , 通过 语义 标注 、 词 频 统 计 、 共 现 分 析 等 方法 对 新 
发 现 语 言 描述 方式 进行 分 析 , 探究 了 新 发 现 语言 的 描 
述 模 式 , 以 及 特征 词句 式 搭配 等 特征 , 为 进一步 构建 
新 发 现 语言 模式 提供 了 基础 。 


2 ”科技 文献 中 新 发 现 语言 描述 特征 研究 现状 
科学 发 现 一 方面 指 做 出 科学 发 现 的 过 程 , 男 一 方 


了 中 


面 指 科学 发 现 的 结果 。 本 文 研究 的 科技 文献 中 的 新 发 
现 属于 科学 发 现 结果 的 范畴 。 钱 时 惕 请 、 李 醒 民 等 吕 
认为 从 自然 界 发 现 新 的 事实 ,或 是 在 科学 研究 中 提出 
新 的 概念 、 原 理 、 假 设 、 定 律 、 述 立新 的 理论 体系 都 
属于 科学 发 现 的 结果 ; 印 仁宗 指出 “科学 发 现 必须 是 
发 现 过 去 从 不 知道 的 新 东西 ， 其 参考 系 是 科学 共同 体 ， 
并 且 这 种 发 现 原则 上 是 可 检验 的 。 还 有 就 是 科学 发 现 
的 结果 能 够 结合 进 科学 知识 体系 中 , 成 为 科学 知识 的 
新 一 章 或 其 补充 ”。 谭 暑 生 中 指出 科学 发 现 与 理论 创新 
是 指 发 现 新 的 科学 事实 和 建立 新 的 科学 理论 (包括 正 
面 肯 定 的 和 反面 否定 的 ), 而 这 些 新 的 科学 事实 和 科学 
理论 是 对 自然 界 尚 未 被 认识 的 物质 及 其 特性 、 物 质 运 
动 规律 和 物质 新 现象 的 一 种 揭示 和 认识 , 并 且 其 主要 
表现 形式 为 学 术 论文 或 专著 。 

以 上 定义 主要 针对 “科学 发 现 ” 而 言 ,在 科技 文献 
中 体现 的 新 发 现 内 容 没有 明确 定义 , 结合 前 人 理论 ， 
本 文 将 科技 文献 中 的 “新 发 现 ” 界 定 为 在 本 研究 领域 针 
对 上 自然 现象 、 事物、 原理 、 特 征 和 规律 ,通过 研究 或 
者 经 验 ,， 做 出 发 现 和 创新 ， 以 及 揭示 了 新 事实 ， 其 中 
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新 事实 由 可 以 概括 为 揭示 业已 存在 但 由 于 各 种 原因 不 
为 人 知 的 现象 或 事实 、 已 存在 信息 有 所 失真 的 现象 或 
事实 以 及 揭示 第 一 次 出 现 的 现象 。 

科技 文献 中 新 发 现 语 言 的 描述 特征 分 析 属 于 科技 
文献 篇 章 分 析 的 范畴 , 在 新 发 现 内 容 的 表达 上 ,一 般 
体现 为 科技 文献 的 知识 声明 、 作 者 贡献 , 或 者 文献 的 
创新 内 容 等 。 目 前 关于 科技 文献 中 新 发 现 语言 的 研究 
主要 有 基于 语言 组 织 分 析 的 方法 ， 基 于 修辞 学 分 析 的 
方法 以 及 基于 文本 挖掘 的 方法 。 

(1) 基于 语言 组 织 分 析 的 方法 主要 包括 以 科技 文 
献 中 知识 声明 、 创 新 点 为 研究 对 象 , 对 其 进行 语言 学 
角度 分 析 的 一 系列 研究 。 知 识 声明 (Knowledge 
Claim) 吕 是 指 由 科技 文献 作者 提出 、 并 且 被 该 学 科研 究 
团体 所 认可 的 知识 增 量 。 新 知识 声明 是 指 为 读者 提供 
新 知识 的 句子 , 作者 会 在 写作 时 采用 特定 的 表达 声明 
首创 性 ， 如 : “We find that…”。 新 知识 声明 中 包含 了 新 
发 现 的 内 容 , 一 些 研究 1 对 其 进行 了 分 析 ,， 在 此 基础 
上 , Dahl053 进 一 步 研 究 了 语言 学 .经济 学 领域 研究 型 
论文 (Research Articles，RASs) 中 新 知识 声明 的 出 现 规 
律 ， 并 探讨 了 新 知识 声明 出 现 位 置 与 语言 学 特征 的 关 
系 ， 以 及 与 篇 章 不 同 部 分 修辞 作用 (Rhetorical 
Function) 的 相关 性 , 人 研究 结果 指出 , 经济 学 领域 的 论 
文 作者 为 了 吸引 读者 的 关注 , 通常 会 在 表达 上 使 用 线 
索 指 示 词 以 及 惯用 表达 方式 (Signaling Expressions)， 
如 “Our main finding is…”; 在 时 态 上 ， 表 达成 果 或 者 
发 现时 会 采用 一 般 现 在 时 ， 如 “We find…/We argue…”。 

科技 文献 的 创新 性 “体现 研究 领域 最 前 沿 的 新 颖 
发 现 ” 并 且 “ 具 有 广泛 的 科学 意义 并 9， 所 以 ,科技 文献 
中 新 发 现 内 容 包含 于 创新 内 容 。 温 有 奈 等 从 逻辑 
思维 角度 以 及 写作 程式 角度 考虑 , 分 析 了 科技 文献 的 
创新 点 语言 特点 ,指出 了 文献 中 研究 目的 、 理 论 根据 
以 及 研究 方法 的 句 型 ， 并 从 根据 创新 点 特征 标记 创新 
句子 , 进而 对 其 进行 抽取 。 

以 上 研究 对 科技 文献 中 涉及 新 发 现 的 内 容 进 行 了 
语言 组 织 分 析 ， 甚 成果 包含 特征 句 型 线索 词 等 , 具有 
一 定 的 借鉴 意义 。 但 研究 方法 为 人 工分 析 , 没有 涉及 
到 大 规模 的 机 响 学 习 方 法 识别 等 , 不 利于 计算 机 大 规 
模 计 算 应 用 。 

(2) 基于 修辞 学 的 研究 主要 包括 分 析 文献 修辞 结 
构 和 修辞 元 话语 两 方面 。Teufel 等 (将 修辞 状态 
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(Rhetorical Status) 定 义 为 问题 结构 (Problem Structure)、 
知识 贡献 (Intellectual Attribution) 等 部 分 ， 其 中 “知识 贡 
献 ” 包 含 了 文献 中 的 新 发 现 , 利用 修辞 状态 标记 文献 ， 
实现 了 对 新 发 现 部 分 的 识别 ,6Sandor 等 ”定义 CKUs 
(Claimed Knowledge Updates) 为 研究 论文 中 承载 核心 
知识 点 并 且 总 结 主要 发 现 的 句子 , 用 修辞 元 话语 
(Metadiscourse) 实 现 对 CKUs 在 文献 中 的 定位 。 其 中 修 
辞 元 话语 是 指 作 者 为 了 使 读者 更 加 容易 理解 而 使 用 的 
除了 “背景 >、“ 方 法 ”"、“ 结 论 ” 等 小 标题 之 外 的 具有 修 
辞 功能 ) 的 元 话语 , 例如 “Recent findings allow to get… 
a picture”o 

基于 修辞 角度 处 理科 技 文献 文本 的 方法 , 重点 识 
别 出 包 含 新 发 现 内 容 的 大 致 区域 ， 即 作者 贡献 部 分 ， 
并 没有 具体 分 析 新 发 现 的 语言 组 织 以 及 语言 描述 上 的 
特征 ， 且 主要 实验 文本 为 英文 ， 中文 科技 文献 的 研究 
无 法 直接 套用 。 

(3) 从 文本 挖掘 角度 ，Ibekwe-Sanjuan 等 中 下 利用 
修辞 和 词汇 线索 词 ,对 语 料 进行 标注 , 将 科技 论文 的 
摘要 标注 为 观点 (Objective), 新 事物 (New Things), 结 
果 (Results)， 发 现 (Findings) 等 部 分 ， 人 工 撰写 相关 规 
则 ,而 后 通过 自动 模式 生成 , 对 已 有 的 规则 进行 扩展 ， 
实现 了 摘要 的 语义 结构 化 ,其 结果 应 用 于 信息 检索 ， 
如 返回 “New Things”: 


NEWTHINGS] We found that more infrared luminous galaxies 
tend to have a smaller local galaxy density, being consistent with the 
picture where luminous IRGs are created by merger-interaction of 


galaxies.... 

冷 伏 海 等 综合 运用 语义 标注 、 规 则 抽取 以 及 正 
则 表达 式 技术 , 提出 一 种 面向 科技 文献 的 混合 语义 信 
息 抽 取 方 法 , 抽取 科技 文献 主要 创新 研究 内 容 和 性 能 
指标 ,该 方法 可 以 迅速 从 400 余 篇 文献 全 文中 抽取 出 
主要 研究 内 容 。 赖 院 根 站 提出 以 创新 主题 为 纽带 将 期 
刊 论文 与 专利 文献 链接 研究 的 框架 , 结合 文本 结构 信 
息 , 采用 规则 的 方法 对 创新 主题 进行 抽取 。 

基于 文本 挖掘 的 方法 对 文献 中 新 发 现 内 容 进行 标 
注 以 及 抽取 , 但 其 规则 的 指定 需要 人 工 参 与 并 借助 领 
域 知识 库 等 人工 编 撰 的 规则 不 能 全 面 地 覆盖 语言 现 
象 , 并 且 抽 取 的 结果 在 整合 中 会 有 噪音 数据 。 

综合 以 上 研究 , 本 文 以 中 文科 技 文献 中 的 新 发 现 
语言 为 研究 对 象 , 利用 标注 的 方式 对 语 料 进行 特征 标 


注 , 结合 特征 搭配 抽取 以 及 共 现 分 析 等 方法 ， 对 新 发 
现 语言 描述 规律 性 特征 进行 分 析 。 


3 新 发 现 语言 描述 特征 分 析 方 法 


科技 文献 在 表达 新 发 现时 有 一 定 的 话 言 学 规律 ， 
其 出 现 的 位 置 、 常 用 表达 、 以 及 特征 词 、 线 索 词 都 能 
表征 新 发 现 的 语言 描述 特点 。 本 文采 用 语义 标注 的 方 
法 , 标记 出 科技 文献 中 新 发 现 的 语言 特征 ,进而 对 特 
征 进 行 搭配 抽取 、 词 频 统计 、 共 现 分析 ， 以 探索 新 发 
现 语言 的 描述 特征 规律 。 
3.1 文档 集 特征 标注 

通过 对 一 定量 的 科技 文献 进行 人 工 阅读 分 析 , 发 
现 科技 文献 中 摘要 、 引 言 、 结 论 等 部 分 可 以 集中 体现 
文章 的 新 发 现 内 容 。 选 取 非 结构 式 科技 文献 摘要 作为 
实验 语 料 , 结合 本 文 对 新 发 现 的 定义 ,对 摘要 中 描述 
新 事物 、 现 象 、 特 征 、 规 律 等 新 发 现 内 容 的 句 群 进行 
语言 分 析 ， 人 工 标注 了 其 特征 词 ( 如 “发 现 ”)、 短 语 ( 如 
“揭示 了 … 规 律 ”)、 句 式 (如 转折 句 )、 结构 (如 并 列 结构 : 
“研究 发 现 : (DD…; @@…; @…”) 等 ,标注 语 料 示 例如 下 。 

示例 1: 该 研究 以 浙江 天 童 木 本 植物 为 对 象 ， 通过 对 小 
枝 大 小 ( 横 截 面积 ) 与 数量 (稠密 度 ) 关 系 的 # 研 究 本 T # 发 现 
在 IT :TD) 小 枝 稠密 度 与 枝 截 面积 # 显 著 #FT # 负 相关 #ET …， 
小 枝 稠密 度 在 两 种 生活 型 间 # 无 #FT# 显 著 #FT# 差 异 扯 T; …。 

一 一 许 月 等 《浙江 天 童 木 本 植物 小 枝 的 “大 小 -数量 "权衡 》 

示例 2: … 系 统 # 研 究 放 T 马尾 松 家 系 对 不 同类 型 低 P 
胁迫 的 适应 机 制 和 了 效率 变异 # 规 律 # 丁 T。# 结 果 表明 #T ， 
参 试 马尾 松 家 系 的 苗 高 、 地 径 和 生物 量 等 P 效率 指标 均 # 
表现 出 #FET# 显 著 #FET 的 家 系 变异 ，…。 

一 一 杨 青 等 《 异 质 低 磷 胁迫 下 马尾 松 家 系 根 构 型 和 磷 效 
率 的 遗传 变异 》 
3.2 ”新 发 现 语言 搭配 特征 抽取 

语 料 标注 完成 后 ， 针 对 新 发 现 语言 的 特征 搭配 进 
行 分 析 。 关 于 词语 搭配 , Choueka 等 2 、Benson 等 PC、 
Church 等 所 认为 搭配 是 重复 出 现 的 、 具 有 互相 关联 性 且 
一 定 任意 性 的 词 的 组 合 。 搭 配 也 有 狭义 和 广义 之 分 
狭义 搭配 专 指 固定 搭配 ,要求 另 一 个 词 伴随 而 产生 的 
词汇 之 间 的 限制 性 共 现 关系 ; 广义 搭配 指 同时 出 现在 
上 下 文中 , 句法 及 词汇 上 有 所 关联 的 词汇 之 间 的 共 
现 。 本 文 对 新 发 现 语言 特 征 搭配 界定 为 ， 出 现在 新 发 
现 句子 的 上 下 文中 , 并 具有 一 定语 法 关系 的 特征 词语 


组 合 。 


在 标注 中 发 现 , 大 部 分 新 发 现 语言 的 特征 搭配 都 
出 现在 一 定 上 下 文中 , 所 以 在 抽取 特征 搭配 时 遍历 文 
摘 的 句子 ， 从 子 句 中 将 已 标注 好 的 特征 词组 合 抽取 出 
来 。 如 “研究 … 规 律 "、 “表现 出 显著 … 指 标 ” 等 。 

抽取 完成 后 , 对 所 有 的 特征 搭配 进行 系统 归 类 ， 
如 , 将 提示 新 发 现 类 别 的 搭配 (“探讨 了 … 特 征 ”、“ 揭 示 
了 … 规 律 " 等 ) 归 类 为 “Type”, 将 提示 具体 新 发 现 结果 
的 词 (“研究 发 现 "、“ 结 果 表 明 ” 等 ) 归 类 为 “Result"* 等 。 
具体 归 类 如 表 1 所 示 : 

表 1 特征 搭配 归 类 对 应 表 ( 部 分 ) 


具体 搭配 归 类 后 

提示 新 发 现 关 别 类 (探讨 了 … 响 应 /分 析 了 和 …， Type 
特征 /……: ) 

提示 结果 部 分 (结果 表明 /显示 /研究 显示 /…… ) Result 
发 现 …/ 研 究 发 现 /分 析 发 现 /… 发 现 
显著 增加 /高 于 / 低 于 /… 显著 V 
显著 正 相关 /关系 /… 显著 NN 
最 高 / 低 /大 / 佳 /… 最 … 
随 (着 )… 升 高 而 增加 /… 随 … 
趋向 于 …/ 赵 于 … 趋势 


有 些 搭配 虽然 符合 上 述 归 类 规则 , 但 是 因为 其 出 
现 的 频次 在 归 类 中 较 高 ， 故 单独 列 出 来 分 析 ， 比 如 “ 显 
著 差异 ?并 没有 归 到 “显著 N" 中 ， 而 是 单独 统计 的 。 
3.3 ”特征 搭配 频次 分 布 统计 分 析 

通过 特征 搭配 频次 分 布 统计 分 析 可 以 有 效 发 现 语 
料 中 哪些 搭配 出 现 的 频率 更 高 些 , 哪些 词语 在 新 发 现 
摘要 中 分 布 更 加 广泛 的 特征 。 

特征 搭配 的 IDE 可 以 由 总 文档 数目 除 以 包含 该 
搭配 词语 的 文档 的 数目 , 再 将 得 到 的 商 取 对 数 得 到 : 


IDF = log 


Num+1 

其 中 , D 是 语 料 中 文摘 的 篇 数 ;Num 是 包含 搭配 的 
文摘 数目 ， 如 果 该 词语 不 在 语料库 中 ,就 会 导致 分 母 
为 零 , 故 使 用 Num+1l。 

TF= Num, 

Num, 为 该 搭配 在 语 料 集 中 出 现 的 总 次 数 。 

IDF 值 衡量 的 是 搭配 在 整个 语 料 中 的 区 分 度 ， 如 
果 一 对 搭配 在 某 篇 文档 中 出 现 很 多 次 , 但 在 整个 语 料 
中 出 现 的 次 数 并 不 多 , 则 说 明 此 搭配 对 这 篇 文档 的 主 
题 区 分 度 大 ; 反之 ,如 果 某 对 搭配 在 单 篇 文档 和 整个 
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语 料 中 出 现 的 次 数 都 很 多 , 则 此 搭配 对 文档 的 主题 区 
分 度 不 大 。 本 文 意图 识别 出 可 以 标识 新 发 现 语言 特征 
的 共性 搭配 ,所 以 希望 搭配 的 IDF 越 小 越 好 。 
3.4 ”特征 搭配 的 共 现 分 析 

通过 共 现 分 析 可 以 发 现在 新 发 现 语 料 中 哪些 特征 
搭配 会 经 常 出 现 ,哪些 特征 搭配 组 合 具 有 上 下 链接 等 
特征 。 计 算 方法 为 , 将 语 料 中 单 篇 摘要 表示 为 特征 搭 
配 的 组 合 , 统计 计算 两 两 特征 搭配 组 合 的 共 现 次 数 。 


4 实验 结果 分 析 与 验证 


4.1 实验 数据 来 源 以 及 预 处 理 

从 文献 来 源 上 考虑 ,影响 因子 较 高 、 被 重要 数据 
库 收录 的 核心 期 刊 中 刊载 文献 包含 的 新 发 现 内 容 较 多 
且 质量 较 高 ; 从 领域 的 角度 考虑 ， 多 个 领域 对 比分 析 
有 助 于 得 出 普 适 性 的 特征 规律 。 本 文选 取 植 物 、 物理 、 
化 学 三 个 领域 做 对 比分 析 ，, 其 中 , 植物 学 领域 选择 的 
科技 期 刊 为 《植物 生态 学 报 》, 化 学 领域 选择 的 科技 
期 刊 为 《化 学 学 报 》《 高 分 子 学报 》《 有 机 化 学 》, 物 
理学 领域 选择 的 科技 期 刊 为 《物理 学 报 》 各 个 期 刊 数 
据 从 CNKIEN 上 定制 导出 为 EndNote 格式 , 后 存 人 数 
据 库 , 数据 表 主 要 字段 如 图 1 所 示 : 


Index Name 
1 UUID 
2 AUTHOR 
3 YEAR 
4 JOURNAL 
5 KEYWORDS 
6 CALLNUMBER 
了 TITLE 
BABSTRACTS 
9 ISBN 
10 AUTHORADDRESS 


图 1 初始 文摘 字段 展示 


实验 中 , 植物 学 领域 选取 前 120 篇 文摘 , 手工 标 
注 其 中 的 新 发 现 特征 ; 作为 对 比 领域 , 化 学 领域 和 物 
理 领域 随机 选择 300 篇 进行 人 工 判别 标注 , 分 别 得 到 
包含 新 发 现 特征 的 文摘 116 篇 、114 篇 。 

对 已 标注 的 文摘 进行 特征 抽取 , 得 到 各 个 领域 的 
新 发 现 特征 搭配 表 ，, 随后 按 3.2 节 中 提 到 的 规范 方法 ， 
对 特征 搭配 进行 规范 , 规范 后 数据 如 图 2 所 示 。 
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RecNo id uuid phrase 
Click here to define a filter 


1 0f986d4f8a5c4030943a6elaed193alc  #Result#FT 

2 Of986d4f8a5c4030943a6elaed193alc ”# 阴 有 至 #FT#Y#FT 
3 0b6089a5bO6cAecfade74c99801124al #Type#FT 

4 0b6089a5b06c4ecfade74c99801124al  # 发 现 #FT 

5 09d9f100bdc841ce9e3db005e9b924ea  # 发 现 #FT 

6 09d9f100bdc841ce9e3db005e9b924ea # 县 #FT 

7 082f6abe4d104b2586678308dce588c6 #Type#FT 

8 082f6abe4d104b2586678308dce588c6  # 发 现 #FT 

9 01bdocfd6f3b4153976abebe7e990e28 #Type#FT 
10 01bd0cfd6f3b4153976abebe7e990e28 #Result#FT 


图 2 新 发 现 特征 搭配 规范 表 ( 截 取 ) 


4.2 ”实验 结果 分 析 

实验 结果 主要 包含 中 文科 技 文献 中 新 发 现 语言 的 
主要 表达 句 型 、 高 频 特 征 搭配 分 析 以 及 共 现 分 析 。 

(1) 新 发 现 语 言 的 表达 句 型 分 析 

对 新 发 现 语 料 标注 完成 后 ， 分 别 对 每 个 领域 的 新 
发 现 类 别 进行 统计 。 大体 上 可 分 为 “影响 ”、“ 特 征 ”、“ 规 
律 ”"“ 关 系 ? 等 类 别 。 但 不 同 的 领域 间 有 差别 ,具体 类 
别 展示 如 表 2 所 示 : 

表 2 领域 新 发 现 主 要 类 别 统 计 


['- 


2 
[=) 


二 植物 学 化 学 物理 学 

类 别 比例 类 别 ”比例 类 别 比例 
1 “影响 ” 23.3% “影响 ” 25.9% “影响 ” 27.1% 
2 “特征 ” 20% “性质” 15.5% “性 质 ” ”13.1% 
3 “关系 ” 13.3% “规律 ” 6.0% “规律 ” 5.2% 
4 “规律 ” 8.3% “行为 ” 6.0% “行为 ” 5.2% 
5 “响应 ” 8.3% “结构 ” 5.2% “过 程 ” 5.2% 
6 “变化 ” 6.7% ” “机理 ” 5.2% “分 布 ” 3.5% 
7 “差异 ” 4.2% “变化 ” 3.5% “关系 ” 3.5% 
8 “原因 ” 3.3% “作用 ” 3.5% “ 响 ( 效 ) 应 ” 3.5% 
9 “特征 ” ”2.6% “原因 ” 1.8% 
10 “反应 ” 2.6% “机 理 ” 1.8% 
11 “原因 ” ”1.2% 


通过 分 析 表 2， 可 得 : 

GD 新 发 现 的 类 别 分 布 在 不 同 领域 内 有 所 不 同 ; 

@) 植 物 、 物 理 、 化 学 三 个 领域 中 ， 新 发 现 的 主要 类 别 都 
是 “影响 ”"“ 特 征 / 性 质 ”"、“ 规 律 "* 这 几 方 面 ; 

@ 相 对 于 植物 领域 ,物理 、 化 学 领域 的 类 别 较为 相似 ， 
都 具有 描述 机 理 、 行 为 、 以 及 各 种 特性 /性 质 的 类 别 ， 如 活 
性 、 稳 定性 、 导 电 性 等 ; 并 且 物 理 、 化 学 领域 的 新 发 现 类 
别 更 分 散 。 

通过 对 主要 类 别 的 新 发 现 语言 进行 句 型 分 析 ， 对 
句 型 句 式 有 宏观 的 了 解 概括 ,这 有 利于 后 期 语言 正则 
表达 式 的 设计 建立 。 
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主要 类 别 的 常见 描述 名 型、 短语 、 词 如 表 3 所 示 ， 了 具体 的 新 发 现 结果 。 结 果 句 一 般 会 有 提示 词 ,如 “ 结 
其 中 提示 句 表 示 提 示 新 发 现 类 别 的 句子 , 结果 人 句 包 含 。 果 表 明 / 发 现 ”。 


表 3 “新 发 现 " 类 别 主 要 句 型 


类 主要 名 型 、 短 语 (提示 句 ) 主要 名 型 、 短 语 、 词 (结果 名 ) 
ee 0 
“影响 ” 观察 了 … 对 … 的 影响 结果 表明 /显示 /发 现 品 震 提高 / 际 低 人 
f 究 了 (光学 /电学 …) 性 质 最 大 / 佳 / 优 …… 
" ee 结果 表明 /显示 /发 现 es 
研究 (了 )… 规 律 呈 显 著 ( 正 / 负 ) 相 关 
“规律 ” 揭示 (了 )… 规 律 结果 表明 /显示 /发 现 。” 表现 出 显著 … 
对 … 特 征 进 行 了 研究 最 高 / 低 最 大 值 
“特征 ” 测定 了 … 特 征 结果 表明 /显示 /发 现 ”差异 显著 
研究 了 … 行 为 … 行 为 更 加 显著 
“行为 ” 观察 了 … 行 为 结果 表明 /显示 /发 现 随 着 …， 而 … 
研究 了 变化 原因 … 规 律 明 显 
“原因 ” 探讨 了 … 因 素 结果 表明 /显示 /发 现 ”趋势 一 臻 
Tr (2) 新 发 现 特征 搭配 的 频次 统计 分 析 表 5 ”化 学 领域 特征 搭配 IDF 计算 
对 新 发 现 语 料 中 标记 的 特征 搭配 进行 规范 归 类 ID 特征 搭配 IDF TF 
后 , 进行 特征 搭配 的 IDF 计算 , 并 降序 排列 , 每 种 领 1 Type 0.299242894852857 101 
域 分 别 选 择 Top15， 具 体 如 表 4- 表 6 所 示 。 2 Result 0.676052747200645 63 
表 4 植物 领域 特征 搭配 IDF 计算 3 发 现 0.861769892995738 55 
证 特征 措 配 ee 5 4 随 1.53471436623816 30 
1 Type 0.0772916743016465 126 5 最 04953999000413 1 
2 Result 0.161061557367105 108 6 明显 V .000080044 DSTO 6 
3 显著 V 0.903970247486114 90 1 显著 Y 2 《 
可 最 oO 58 8 有 利 ( 助 ) 于 3.14415227867226 4 
随 1 46358603542154 40 9 更 3.14415227867226 6 
显著 N 2 .02320182335696 2 10 有 … 影 响 3.14415227867226 4 
5 中 趋势 DO 全 11 明显 N 3.36729582998647 3 
8 显著 差异 a a 入 12 有 效 V 3.36729582998647 3 
9 ” 旦 相关 2.39789527279837 17 3 先 … 后 … 902 39002200 
10 趋势 2.4932054526027 10 加 较 好 0 2 
生 品 关系 god ey 0 15 较 高 3.65497790243825 2 
12 ”差异 显著 2.4932054526027 11 综合 三 个 领域 的 新 发 现 特 征 搭 配 IDF 统计 ， 可 以 
13 发 现 2.59856596826052 8 发 现 : 
14 ”NN 显著 3.00403107636869 6 OType 与 Result 类 搭配 在 三 个 领域 中 都 普遍 存在 ， 表 
15 表现 出 趋势 3.18635263316264 4 明 领 域内 科技 文献 都 会 采用 新 发 现 类 别提 示 词 (Type) 与 具体 
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表 6 物理 领域 特征 搭配 IDF 计算 表 8 化 学 领域 新 发 现 特征 搭配 共 现 关系 统计 
ID 特征 搭配 IDF TF ID ntl nt2 Occurrence 
1 Type 0.258861633916289 96 1 Result Type 50 
2 Result 0.54654370636807 71 2 发 现 Type 31 
3 发 现 0.747214401830221 64 3 随 Type 17 
4 随 1.12528053575027 49 4 Result 随 16 
5 明显 N 2.33830317559612 10 5 最 Type 12 
6 最 2.33830317559612 14 6 最 发 现 8 
4 显著 V 2.43361335540045 9 和 最 Result a 
8 明显 V 2.53897387105828 10 8 显著 V Type 6 
9 明显 2.53897387105828 8 9 随 发 现 6 
10 越 2.65675690671466 14 10 Result 明显 V 5 
0 表 9 物理 领域 新 发 现 特征 搭配 共 现 关系 统计 
13 时 3.3499040872746 3 ID ntl nt2 Occurrence 
14 呈 趋势 3.3499040872746 4 1 Result Type 58 
15 显著 N 3.3499040872746 3 2 发 现 Type 35 
3 随 Type 26 
新 发 现 结果 提示 词 (Result) 结 合 的 形式 描述 新 发 现 内 容 ; 4 Result 随 22 
@)“ 发 现 ” 类 短语 (如 “研究 发 现 ”"、“ 分 析 发 现 " “比较 发 5 随 发 现 13 
现 ”…) 其 出 现 具有 一 定 的 领域 特征 ,在 化 学 、 物 理 领 域 出 现 6 Result 发 现 10 
较 多 ,对比 之 下 在 植物 学 领域 出 现 较 少 ; 7 最 Type 8 
@@ 程 度 类 修饰 词 如 “显著 ”"、“ 明 显 ”、“ 最 …” 等 在 三 个 领 8 Result 明显 V 7 
域内 都 具有 较 高 的 频次 ， 提示 了 “明显 , 引 人 注 目的 ”事实 ， 常 9 明显 NN Type 7 
用 于 对 照 实验 的 结果 表达 ,是 新 发 现 中 很 重要 的 一 方面 ; 10 显著 V Type 7 
@ 在 描述 茶 一 类 规律 时 ， 常 采用 “ 随 (着 )…” 类 的 搭配 句 
型 ， 在 三 个 领域 内 普遍 存在 。 通过 分 析 三 个 领域 中 新 发 现 特征 搭配 的 共 现 表 ， 
G) 新 发 现 特征 搭配 共 现 统计 分 析 可 以 得 出 : 
根据 计算 IDF 时 的 规范 表 , 计算 不 同 领 域 特征 搭 OD 新 发 现 类 别 (Type)、 结 果 部 分 提示 词 (Result), 二 者 共 现 


配 的 两 两 共 现 关系 。 根 据 高 频 的 共 现 关系 来 分 析 在 描 的 频次 较 高 , 说 明 三 个 领域 内 都 倾向 于 采用 这 种 
述 新 发 现 内 容 时 常 采用 的 语言 模式 ， 并 探究 不 同 领 域 。 Type-Result 的 形式 描述 新 发 现 内 容 ; 


间 模 式 的 异同 。 计 算 结果 如 表 7- 表 9 (Top10) 所 示 。 ee 
用 来 引出 新 发 现 内 容 ; 


表 7 植物 领域 新 发 现 特征 搭配 共 现 关系 统计 图 描述 具体 的 新 发 现时 ， 趋 向 于 用 引 人 注 意 的 词汇 ,如 
ID ntl nt2 Occurrence “显著 ”"、“ 最 …” 等 。 

1 Result Type 95 4.3 ”实验 结果 验证 

on a 针对 4.2 节 中 得 到 的 新 发 现 语言 表达 特征 搭配 模 
, ei 式 ,总 结 新 发 现 类 型 表达 表 、 新 发 现 结果 提示 词 表 、 新 
四 a . 发 现 特征 词 表 , 设计 实验 对 特征 的 准确 性 进行 验证 。 

6 i 和 本 实验 思路 是 针对 一 篇 测试 文摘 ,首先 进行 分 句 ， 
了 Result 随 22 然后 按照 新 发 现 类 别 规则 、 新 发 现 结果 提 示 词 、 新 发 
8 呈 趋势 Result 13 现 内 容 特征 规则 的 顺序 进行 正则 匹配 ， 如 果 该 文献 中 
9 呈 趋势 Type 13 包含 有 新 发 现 类 别 搭配 、 新 发 现 内 容 特征 搭配 则 判定 
10 最 随 13 为 新 发 现 相关 (结果 提示 词 不 是 必须 选项 )。 结 果 统 计 
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其 准确 率 (Precision) 和 召回 率 (Recall)。 计 算 公 式 如 下 : 


precision -返回 结果 中 相关 文档 的 数目 
返回 结果 的 数目 
Recall 返回 结果 中 相关 文档 的 数目 
所 有 相关 文档 的 数目 


测试 语 料 采 用 与 4.1 节 同 源 的 期 刊 数据 ,每 个 领 
域 随机 选择 100 篇 新 的 文摘 ， 人 工 判定 是 否 含 有 新 发 
现 内 容 , 如 表 10 所 示 : 
表 10 测试 语 料 中 新 发 现 内 容 分 布 


领 二 
2 植物 ”化 学 。 ”物理 
含有 新 发 现 内 容 ( 篇 ) 56 31 50 
未 含 新 发 现 内 容 (篇 ) 44 69 50 
总 计 ( 篇 ) 100 100 100 


实验 结果 统计 如 表 11 所 示 : 
表 11 各 领域 新 发 现 特征 识别 判定 
领域 


BE 植物 化 学 物理 
年 
Precision 81.48% 70.00% 62.29% 
Recall 78.57% 67.74% 76.00% 


从 以 上 结果 可 以 看 出 , 本文 总 结 分 析 的 新 发 现 特 
征集 ， 其 描述 新 发 现 内 容 时 ， 具 有 较 高 的 准确 率 和 召 
回 率 。 其 中 , 植物 领域 的 识别 效果 最 好 ， 因 为 植物 领域 
中 新 发 现 的 类 别 较 为 集中 ,而 化 学 、 物 理 领 域 则 相对 
分 散 ， 见 表 2。 综 上 所 述 , 本 文 总 结 的 新 发 现 语言 特征 
集 具 有 一 定 的 准确 性 。 


S 结 语 


本 文 以 领域 内 中 文科 技 文献 新 发 现 语 言 为 研究 对 
象 , 通过 语义 标注 、 词 频 统 计 、 共 现 分 析 等 方法 , 对 新 
发 现 语 言 的 描述 模式 做 了 初步 探索 , 分 析 了 新 发 现 语 
言 句 式 、 特 征 搭配 等 特征 ,并 对 不 同 领域 间 新 发 现 语 
言 描述 的 句 式 、 特 征 搭配 等 进行 对 比 研究 ,对 其 表达 
上 的 异同 进行 分 析 , 实现 了 对 不 同 领域 内 中 文科 技 文 
献 新 发 现 语言 表达 的 量化 研究 。 

本 文 的 不 足 之 处 在 于 对 科技 文献 中 新 发 现 语言 的 
描述 目前 只 限定 于 自然 科学 范畴 的 文献 , 并 且 大 量 的 
语义 标注 工作 都 是 人 工 进行 ， 较 为 耗 时 耗 力 。 需 要 对 
表达 的 模式 进行 机 器 学 习 ,进而 进行 大 范围 计算 。 

后 续 研 究 中 , 将 以 现 有 结果 为 基础 ， 探 索 新 发 现 
语言 的 描述 特点 , 建立 新 发 现 语言 描述 模型 , 使 结果 
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更 具有 实际 意义 。 
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Linguistic Features of New Findings in Chinese Scientific Papers 


Mao Chenyu!” Le Xiaoqiu'! 
!(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
2(University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: [Objective] To analyse the linguistic features of new findings discussed by the scientific research papers in 
Chinese. [Methods] We first annotated these features and then explore their patterns with the help of sentence analysis, 
frequency statistics and co-occurrence analysis technologies. [Results] We summarized the sentence patterns and 
features of words/phrases for new findings listed by the Chinese scientific articles. [Limitations| We only examined 
papers from the field of natural sciences. More comparative research is needed to analyze papers from other areas. 
[Conclusions] Annotating corpus, counting frequency distribution statistics and analyzing of co-occurrence could 
effectively identify new findings from Chinese scientific articles. 


Keywords: New finding Linguistic feature Semantic annotation 


Ex Libris 获得 ISO 27018 云 隐 私 认 证 


Ex Libris 于 近日 获得 ISOTEC 27018:2014 证 书 , 这 是 一 个 由 国际 标准 化 组 织 (ISO) 于 近期 颁布 的 国际 标准 协议 ， 旨 在 提供 
云 计算 服务 领域 中 对 于 个 人 身份 信息 (Personally Identifiable Information, PID) 的 保护 指南 ,ISO/EC 27018 标准 建立 了 被 普遍 接 
受 的 控制 目标 、 控 制 对 象 和 行为 准则 ,以 确保 PI 数据 被 云 计算 服务 提供 商 处 理 时 得 到 了 适当 的 保护 , 为 云 计算 服务 提供 商 
提供 了 一 个 普遍 的 行为 框架 。 这 一 证 书 给 予 Ex Libris 所 服务 的 客户 以 足够 的 信心 ， 即 Ex Libris 能 在 云 计 算 中 以 最 高 级 别 来 
保护 个 人 身份 信息 。 

想 要 获得 ISOTEC 27018:2014 证 书 , 公司 必须 展现 出 持续 不 断 的 结构 化 措施 来 保护 个 人 身份 信息 和 用 户 数据 。 通 过 与 
ISO 27018 相 契 合 的 过 程 , Ex Libris 表明 Ex Libris 环境 能 保护 个 人 信息 ,这 种 保护 遵循 了 数据 隐私 法 律 ， 允许 客户 保留 对 他 们 
个 人 信息 的 完全 控制 , 同时 客户 的 数据 不 以 任何 非 官方 目的 被 使 用 , 另外 公司 在 客户 的 数据 如 何 被 储存 和 使 用 方面 是 完全 公 
开 透 明 的 。 

Ex Libris 致力 于 为 用 户 提 供 高 度 安全 和 可 信赖 环境 来 进行 基于 云 计 算 的 Saag 应 用 。Ex Libris 已 经 开发 出 覆盖 云 计算 服 
务 各 个 方面 的 多 个 层次 的 安全 模型 。 这 一 安全 模型 和 控制 做 法 基于 国际 化 协议 、 标 准 和 工业 最 佳 实践 , 包括 ISO/EC 
27001:2013、ISO/EC 27018:2014 和 CSA Star Self-Assessment。 

“每 一 个 Ex Libris 的 人 都 很 自豪 Ex Libris 在 世界 各 地 的 操作 平台 和 数据 中 心 能 够 获得 极为 重要 的 ISO/IEC 27018:2014 
证 书 。”Ex Libris 的 隐私 和 监管 官 Ellen Amsel 说 道 。“ 作 为 本 领域 基于 云 计算 的 SaaS 解决 方案 的 先锋 者 , 我 们 采用 ' 最 高 机 
栏 :的 做 法 来 贯彻 最 为 严格 的 国际 信息 安全 标准 。 我 们 相信 隐私 保护 是 正确 应 当 的 ,而 非 不 切实 际 的 要 求 , 并 且 保 护 我 们 用 户 
的 数据 和 隐私 是 至 关 重 要 的 。” 

Ex Libris 的 信息 安全 官 Tomer Shemesh 补充 :“ 一 直 以 来 , 我 们 都 采用 国际 标准 , ISO/IEC 27018:2014 证 书 (的 获得 ) 是 我 
们 将 客户 利益 摆 在 首位 的 一 个 最 新 例子 。 遵 从 国际 标准 需要 在 处 理 PII 方面 有 较 高 程度 的 经 验 , 并 投入 较 多 的 时 间 和 资源 花 
费 , 这 一 ISO 证 书 能 使 客户 对 存储 在 我 们 数据 中 心 的 客户 信息 的 安全 和 隐私 保持 绝对 放心 , 并 且 能 使 他 们 以 无 可 匹敌 的 可 见 
性 、 规 范 性 和 信息 安全 性 来 使 用 我 们 的 云 计 算 服务 。” 
(编译 自 : http://www.librarytechnology.org/news/pr.pl?id=21591) 


(本 刊 讯 ) 
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